# Recherche de Cliques

**Ce TP est à rendre avant le prochain cours, soit avant le 19 février à 14h15.**

## Introduction

En 1949, Duncan Luce et Albert Perry se demandent comment trouver des éléments de structure dans un réseau social.
Une notion particulière découle de leur travail : la notion de clique, c'est à dire un groupe de personnes qui se connaissent toustes.

En fait, ici, le terme "réseau social" est à comprendre au sens large comme un graphe qui représente les interactions entre des personnes, et le terme clique est lui-même un terme qui nous vient des sciences sociales : une clique est un ensemble de personnes qui se regroupent généralement pour des affinités ou intérêts communs.

Et comme dirait un penseur contemporain local pour exprimer la forte connexion entre les membre d'une clique : "touche à un membre de ma clique, tu verras qu'on n'est pas tout seuls".

In [None]:
import networkx as nx
import matplotlib.pyplot as plt
import numpy as np

## En théorie des Graphes

On l'a vu en cours, dans un graphe, une clique est un sous-graphe complet d'un graphe.
Par exemple, une clique de 6 sommets :

In [None]:
G = nx.complete_graph(6)
nx.draw(G, edgecolors="black", node_color="pink", edge_color="pink", width=4)

Commençons par définir une fonction qui affiche un sous-graphe sur un graphe, qui nous sera utile par la suite. Si on ne donne pas l'argument `aretes_sous_graphe` à la fonction, elle reliera tous les sommets donnés en argument (à condition que l'arête soit aussi dans `G`), sinon elle affichera les arêtes présente dans cette liste. L'argument `with_label` permet d'afficher ou non les labels des sommets (par défaut il les affiche).

In [None]:
def afficher_sous_graphe(G, sommets_sous_graphe, aretes_sous_graphe=None, with_labels=True):
 if aretes_sous_graphe is None:
 aretes_sous_graphe = [(u, v) for u in sommets_sous_graphe for v in sommets_sous_graphe]
 aretes_sous_graphe = set(aretes_sous_graphe) & set(G.edges())
 
 Gcliques = nx.Graph()
 Gcliques.add_nodes_from(sommets_sous_graphe)
 Gcliques.add_edges_from(aretes_sous_graphe)

 
 pos = nx.spring_layout(G, seed=123)
 nx.draw(G, pos, edgecolors="black", 
 node_color="white", width=1, with_labels=with_labels)
 nx.draw(Gcliques, pos, edge_color="pink", edgecolors="black", 
 node_color="pink", width=4, with_labels=with_labels)

On peut alors afficher deux sous cliques contenant respectivement $3$ et $4$ sommets.

In [None]:
G_exemple = nx.Graph()
G_exemple.add_nodes_from(np.arange(1, 11))
G_exemple.add_edges_from([(1,2),(2,3),(3,4),(1,3),(1,4),(2,4),(2,10),(3,5),(4,7),(7,8),(3,6),(6,9),(6,8),(7,8),(8,9)])

sommets_clique = [1,2,3,4,6,8,9]
aretes_clique = [(1,2),(2,3),(3,4),(1,3),(2,4),(1,4),(6,9),(6,8),(8,9)]


afficher_sous_graphe(G_exemple, sommets_clique, aretes_clique)

**Question.** Combien d'arête y a-t-il dans une clique à $n$ éléments ?

## Cliques Maximales

Ce n'est pas très difficile de trouver une clique quelconque dans un graphe : une arête entre deux sommets forme déjà une clique de taille $2$ !

C'est donc plutôt facile de trouver une clique dans un graphe, vu que n'importe quel sommet forme une clique de taille 1, et n'importe quelle arête une clique de taille 2.
On va donc s'intéresser à deux types plus particuliers de cliques.

**Cliques Maximales.** On dit qu'une clique est maximale dans un graphe $G$ s'il est impossible de trouver une clique plus grande en lui rajoutant des points. En d'autres termes, c'est une clique qui n'est pas un sous-graphe d'une clique plus grande.

**Plus Grande Clique.** Comme il y a un nombre fini de cliques dans un graphe, il y en a nécéssairement une qui est plus grande (éventuellement ex aequo avec d'autres) que les autres dans le graphe. Cette clique est appelée la plus grande clique du graphe.

**Question.** Donnez un exemple de graphe dans lequel vous expliciterez une clique maximale qui n'est pas la plus grande clique du graphe.

Dans ce graphe, la clique rose est une clique maximale (on ne peut pas obtenir une clique plus grande en lui rajoutant des sommets), mais ce n'est pas la plus grande car la clique bleue est une clique qui a plus d'éléments.

## Rercherche de Cliques

### Recherche d'une Clique Maximale

Le problème de trouver une clique maximale est en fait plutôt simple : à partir d'une clique, il suffit de regarder s'il existe un sommet qui est voisin de tous les sommets de la clique. Si tel est le cas, alors on peut le rajouter à notre clique et obtenir une clique plus grande.
Il suffit alors de continuer jusqu'à ne plus pouvoir ajouter de sommets à la clique obtenue : la clique est alors maximale.

Pour implémenter cet algorithme, on va commencer par implémenter une fonction qui rajoute un sommet à une clique existente (si cela est possible bien sûr !).
Cet algorithme est un algorithme itératif, qui prend en entrée une clique, et qui parcourt les sommets de cette clique.
On dira qu'un sommet est candidat s'il est voisin de tous les sommets parcourus jusque là.

Ainsi, pour le premier sommet, tous ses voisins sont candidats à agrandir la clique. On pourra alors mettre à jour cette liste à chaque sommet rencontré : les nouveaux candidats sont ceux qui étaient déjà candidats, qui sont aussi voisins du prochain sommet rencontré, et qui ne sont pas encore dans la clique. Les nouveaux candidats sont donc l'intersection des candidats et des voisins du sommet que l'on est en train de parcourir qui ne sont pas encore dans la clique.

**Remarques.**
* Un sommet constitue une clique à lui tout seul, on peut donc appeler la fonction en lui donnant une liste ne contenant qu'un seul sommet ;
* Parfois, on aura plusieurs candidats, il suffit alors d'en choisir un.

*Attention*, en prenant juste l'intersection des voisins de chacun des sommets, il est possible que l'on essaye de rajouter un sommet qui est déjà dans la clique. On prendra donc bien soin d'enlever des candidats les sommets qui sont déjà dans la clique avant de choisir un sommet à rajouter.

**Question.** Implémentez un algorithme qui prend en entrée un graphe et une clique (ie. un ensemble de sommets) et qui renvoie `False` s'il n'est pas possible d'agrandir cette clique, et qui sinon renvoie la clique agrandie.

*Indice :* en fait, plutôt que d'utiliser des listes, on utilisera des ensembles (`set` en Python). La ligne `adj = {a[0]: set(a[1]) for a in G.adjacency() }` permet de récupérer les voisins d'un sommet `s` avec `adj[s]` sous forme d'ensemble. Cela permet de calculer l'intersection de deux ensembles facilement.

Vous pouvez vous référer à la documentation de python pour les ensembles. Pour cela, il suffit d'exécuter `help(set)`.

In [None]:
def agrandir_clique(G, clique):
 # liste d'adjacence du graphe
 adj = {a[0]: set(a[1]) for a in G.adjacency() }
 

**Question.** Essayez votre fonction sur le graphe `G_exemple` en cherchant à agrandir une clique contenant les sommets $2$ et $3$.

**Question.** L'algorithme renvoie une clique, mais combien de cliques de taille 3 aurait-on pu obtenir ici ?

**Question.** On peut donc maintenant implémenter une fonction qui cherche une clique maximale à partir d'un sommet donné. Implémentez la.

In [None]:
def clique_maximale(G, sommet):


**Question.** Recherchez une clique maximale en partant du sommet $3$ dans le graphe `G_exemple` et affichez la dans le graphe.

**Remarque.** Si vous lancez votre fonction sur le sommet $5$, vous obtenez une clique maximale qui contient aussi le sommet $3$. Ainsi, un sommet donné peut faire partie de plusieurs cliques maximales.

**Complexité.** Ici, notre implémentation n'est pas optimale car à chaque fois que l'on cherche à agrandir une clique, on recalcule les intersections entre tous les sommets, alors qu'on les a déjà calculées au coup d'avant.
De plus, on pourrait représenter les voisins de chacun des sommets par un seul entier. En effet, pour un sommet $s$ donné, on pourrait représenter en binaire l'ensemble de ses voisins, le $i$-ème bit valant $1$ s'il y a une arête entre ce sommet et le sommet $i$ et $0$ sinon. Cela permettrait de calculer les intersections d'ensembles de façon très efficace, car les processeurs des ordinateurs sont très bons pour ce type d'opérations.

Ainsi, même si on ne cherchera pas dans ce TP à implémenter cet algorithme de façon optimale, il est possible de l'implémenter de façon à ce qu'il s'exécute en temps linéaire en le nombre de sommets.

## k-Cliques

En pratique, dans un groupe d'ami-es, il peut arriver que tous les ami-es ne soient pas tous aussi proches les un-es des autres. Notre définition de clique est donc un peu trop restrictive, car s'il manque un seul lien, la clique est tout de suite plus petite.

On peut remédier à cela en utilisant une notion un peu plus large de clique : les **k-cliques**. Une k-clique est un ensemble de sommets tel qu'il existe un chemin de longueur au plus $k$ dans le graphe entre chacun de ses membres.

L'algorithme que l'on a implémenté au dessus nous permet, en modifiant juste le graphe en entrée, de trouver une k-clique maximale.
En fait, on va utiliser le même algorithme, mais sur un autre graphe, où l'on va rajouter des arêtes entre les sommets entre lesquels il existe un chemin de distance $k$.

**Recherche de 2-cliques.** Pour commencer, on va chercher des 2-cliques. Pour cela, on va créer un graphe où l'on va rajouter toutes les arêtes $(u, v)$ telles qu'il existe un sommet $s$ pour lequel les arêtes $(u, s)$ et $(s, v)$ sont dans le graphe.

Pour faire cela, on peut itérer sur les sommets du graphe, et rajouter des arêtes entre chaque sommet et les voisins et ses voisins.

**Question.** Implémentez une fonction qui prend un graphe en entrée, qui copie le graphe et qui rajoute, pour chacun des sommets, une arête entre ce sommet et chacun des voisins de ses voisins.
Vous veillerez bien à ne pas rajouter directement les sommets au graphe donné en entrée, de façon à éviter de prendre en compte au cours de l'exécution de l'algorithme une arête que vous auriez vous-même ajoutée.

In [None]:
def ajouter_chemins(G):
 

**Question.** Affichez le graphe obtenu en rajoutant les chemins de longueur 2 au graphe `G_simple` suivant.

In [None]:
G_simple = nx.Graph()
G_simple.add_nodes_from([1,2,3,4])
G_simple.add_edges_from([(1,2),(2,3),(3,4)])

nx.draw(G_simple, with_labels=True, edgecolors="black", node_color="pink")

On peut maintenant facilement faire un algorithme qui trouve des 2-cliques maximales, pour cela on procède en deux étapes :

* on rajoute les chemins de longueur $2$ au graphe avec la fonction `ajouter_chemins` ;
* on cherche une clique dans le graphe obtenu.

**Question.** Implémentez une fonction qui cherche une 2-clique maximale à partir d'un sommet dans un graphe et affichez cette 2-clique sur le graphe `G_exemple` de la partie précédente.

In [None]:
def clique2_max(G, sommet):
 

In [None]:
clique2 = clique2_max(G_exemple, 2)
afficher_sous_graphe(G_exemple, clique2)

**Question.** Que pensez-vous de la "clique" obtenue ?

## Représentation Matricielle

Comme vous avez pu le voir, ce n'est pas toujours très pratique de rajouter des arêtes entre chaque sommet et les voisins de ses voisins, cela demande de faire beaucoup de boucles qui parcourent beaucoup de sommets.

On pourrait rechercher des $k$-cliques en procédant comme pour les $2$-cliques, à la différence près que l'on devrait d'abord calculer récursivement le graphe où l'on aurait rajouté les chemins de longueur $k-1$, puis relier les sommets $u$ et $v$ tel qu'il existe un sommet $s$ où :

* il existe un chemin de longueur $k-1$ entre $u$ et $s$ ;
* l'arête $(s, v)$ est dans le graphe initial.

Cette solution, si elle fonctionne, n'est pas très élégante et demande de faire beaucoup de calculs récursivement.
Une meilleure solution consiste à utiliser la représentation matricielle du graphe.

Pour rappel, on peut représenter un graphe à $n$ sommets sous la forme d'une matrice $M$ de taille $n \times n$, dont l'élément $M_{i,j}$ aux coordonnées $(i, j)$ vaut $1$ s'il existe une arête entre les sommets $i$ et $j$, et $0$ sinon.

Par exemple, voilà la matrice du graphe de la partie précédente :

In [None]:
nx.adjacency_matrix(G).todense()

L'avantage de cette représentation, c'est que si la matrice $M$ représente un graphe, le coefficient $(i, j)$ de la matrice $M \times M$ donne directement le nombre de chemins qui vont du sommet $i$ au sommet $j$.

En effet, le coefficient $(i, j)$ de $M^2$ est :

$$ (M \times M)_{i,j} = \sum_{k=1}^n M_{i,k} M_{k, j}, $$

ainsi, s'il existe un chemin entre $i$ et $k$, et entre $k$ et $j$, alors $M_{i,k} M_{k, j} = 1$, donc cela signifie qu'il existe un chemin entre les sommets $i$ et $j$ passant par $k$.

On peut alors continuer à multiplier la matrice $M$ par elle-même, et la matrice $M^k = M \times M \times \cdots \times M$ ($k$ fois) contient dans chacun de ses coefficients le nombre de chemins de longueur $k$ qui relient les sommets correspondants.

**Remarque.** La matrice $M^k$ contient les chemins de longueur $k$, mais pas ceux de longueur strictement inférieure à $k$. Pour connaître le nombre de chemins de longueur inférieure à $k$ entre deux sommets, on peut donc tout simplement sommer les matrices $M, M^2, M^3, \dots, M^k$.

Par exemple, on peut partir du graphe suivant, et afficher les graphes dont les représentations respectives sont les matrices $M^k$ :

In [None]:
G_simple = nx.Graph()
G_simple.add_nodes_from([0,1,2,3,4,5])
G_simple.add_edges_from([(0,1),(1,2),(2,3),(3,4),(4,5)])
M = nx.adjacency_matrix(G_simple)

print("Graphe Original :")
print(M.todense())
nx.draw(G_simple, node_color="pink", edgecolors="black", with_labels=True)
plt.show()

Mk = M
for k in range(2, 5):
 Mk = np.dot(Mk, M)
 
 print("Graphe avec une arête seulement s'il existe un chemin de longueur " + str(k) + " entre deux sommets :")
 print(Mk.todense())

 nx.draw(nx.from_scipy_sparse_matrix(Mk), node_color="pink", edgecolors="black", with_labels=True)
 plt.show()

**Question.** Implémentez une fonction qui prend un graphe `G` et un entier `k` en entrée et qui :
* récupère sa représentation matricielle avec `nx.adjacency_matrix(G)` ;
* calcule la matrice des chemins de longueur inférieure ou égale à `k`, on pourra utiliser la fonction `np.dot` pour multiplier deux matrices ;
* remplace les valeurs de la matrice obtenue de façon à ce que la valeur d'un coefficient soit $1$ s'il existe un chemin entre les sommets (ie. si la matrice calculée à l'étape précédente a un coefficient plus grand que $0$) et $0$ sinon ;
* renvoie le graphe correspondant à la matrice calculée en le générant avec la fonction `nx.from_scipy_sparse_matrix`.

*Attention.* La fonction `nx.from_scipy_sparse_matrix` renvoie un graphe dont les sommets ont comme noms $0, 1, 2$... on pourra donc utiliser la fonction `renommer_sommet` suivante, qui prend en entrée un graphe et les noms des sommets, et qui renvoie le graphe `G` dont les sommets ont été renommés par les noms des sommets donnés dans l'argument `nodes`.

In [None]:
def renommer_sommets(G, nodes):
 return nx.relabel_nodes(G, {i: u for i, u in enumerate(nodes)})

def graphe_chemins(G, k):
 

**Question.** Affichez le graphe obtenu pour le graphe de la question précédente et $k=3$.

**Question.** Utilisez cette fonction pour définir une fonction qui recherche des $k$-cliques maximales dans un graphe.

In [None]:
def kclique_max(G, k, sommet):
 

**Question.** Affichez une $2$-clique et une $3$-clique en partant du sommet $3$ dans le graphe `G_exemple`. Comparez la 2-clique avec le résultat obtenu dans la partie précédente.

## Plus Grande Clique ?

La recherche de plus grandes cliques dépasse le cadre de ce TP, et repose essentiellement sur des algorithmes de backtracking comme l'[algorithme de Bron-Kerbosch](https://en.wikipedia.org/wiki/Bron%E2%80%93Kerbosch_algorithm), qui sont très utilisés en pratique mais dont le temps d'exécution est exponentiel en la taille du graphe.

À première vue, on pourrait néanmoins se dire que, si l'on recherche une clique maximale sur chacun des sommets, puis qu'on prend la plus grande clique obtenue, on aurait une plus grande clique du graphe.

**Question.** Expliquez rapidement pourquoi cette approche ne fonctionne pas.